12 research outputs found

    Detecting sociosemantic communities by applying social network analysis in tweets

    Get PDF
    International audienceVirtual social networks have led to a new way of communication that is different from the oral one, where the restriction of time and space generates new linguistic practices. Twitter, a medium for political and social discussion, can be analyzed to understand new ways of communication and to explore sociosemiotics aspects that come with the use of the hashtags and their relationship with other elements. This paper presents a quantitative study of tweets, around a fixed hashtag, in relation with other contents that users bring to connection. By calculating the frequency of terms, a table of nodes and edges is created to visualize tweets like graphs. Our study applies social network analysis that, going beyond mere topology, reveals relevant sociosemantic communities providing insights for the comparison of social and political movements

    From Tweet to Graph: Social Network Analysis for Semantic Information Extraction

    Get PDF
    International audienceThis paper represents a study along the cutting edge of the current analysis of online social network in relation with the contents communicated among users. Twitter data is carefully selected around a fixed hash-tag in order to study the specified content in relation with other contents that users bring to connection. A separate network of hash-tags related (in tweets) is constructed for different days; the networks are analyzed within advanced Gephi package, providing several measures -degree, betweenness centrality, communities, as well as the longest path, by which the evolution of communication around specified concepts is quantified. Our study is absolutely in the current trend of analysis of online social networks that, going beyond mere topology, reveals relevant linguistic and social categories and their dynamics

    Accès au contenu des thèses numériques par leur structure sémantique

    No full text
    National audienceLes projets de bibliothèques numériques actuels offrent à l’utilisateur l’accès aux thèses à partir d’une recherche qui ne permet pas d’extraire les parties pertinentes de la thèse et ne renvoie que la thèse intégrale. Ainsi, l’utilisateur doit lire des chapitres entiers pour connaître les parties qui correspondent à son besoin. Le projet CITHER (Consultation en texte Intégral des THèses En Réseau ) de l’INSA de Lyon dans lequel s’inscrit cette étude, porte sur la mise en ligne des thèses. Dans ce projet, nous proposons de permettre un accès pertinent au contenu des thèses grâce à l’utilisation de « tags sémantiques » rajoutés, par le doctorant, au sein de sa thèse lors de la rédaction. L’exploitation de ces tags permet de cibler la recherche et ainsi mieux satisfaire l’utilisateur. Notre travail porte d’une part sur la constitution d’une base de concepts utilisés pour le « tagage » de la thèse puis sur la définition d’un nouveau modèle de documents à partir des différentes structures de la thèse

    Extracción de estructura a partir de descripciones textuales botánicas

    No full text
    El presente proyecto presenta una solución al problema de análisis y edición de textos en un dominio de aplicación específico, así como su inserción a una base de datos. La solución se propone en el contexto de la Biblioteca Digital Florística (FDL), la cual se está desarrollando en el Centro de Informática Botánica del Jardín Botánico de Missouri con la participación del Laboratorio de Tecnologías Interactivas y Cooperativas (ICT) de la Universidad de las Américas Puebla (UDLAP). El objetivo del proyecto FDL es recolectar y publicar información sobre especies de plantas briofitas y vasculares que crecen en diversas regiones, incluyendo la Flora de Norteamérica (FNA), la Flora de China (FOC) y la Flora de Mesoamérica (FM). Sólo en FNA están participando cerca de 800 autores de documentos llamados tratamientos taxonómicos y que representan el elemento de información fundamental de FDL. Cada tratamiento taxonómico contiene una descripción morfológica cuya introducción manual, revisión y edición representa una enorme inversión de tiempo. Esto se debe principalmente a que las descripciones morfológicas, aunque utilizan un lenguaje restringido, no observan un formato fijo, sino que cada descripción contiene un número diferente de características. La solución que se propone demuestra el potencial del uso de una gramática en la determinación de la estructura de la información contenida en un texto determinado dentro de una biblioteca digital. Dado un texto en formato HTML o formato libre el sistema lo analiza para presentárselo al usuario con el fin de su verificación antes de que se actualice la base de datos. Esta transformación es útil también en el proceso de almacenar descripciones morfológicas existentes en una base de datos con un formato preestablecido. El proyecto forma parte de un sistema, más general, de apoyo a los autores de descripciones morfológicas. Con su uso se espera agilizar la construcción de la biblioteca digital además de contribuir a la investigación en el área de extracción de información en una biblioteca digital

    Adaptive Semantic Annotations for a Digital Library

    No full text
    National audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    Knowledge Extraction to Improve Information Retrieval in Scientific Documents

    No full text
    International audienceAnnotation is a key way in which documents grow and increase in value. This paper explores the possibility to use concepts extracted from documents by using a Natural Language Processing tool to characterize the content of digital theses. Then, using the results of the study, the paper explores the use of annotated theses in order to access to pertinent information stored in these documents and to extract knowledge by an “intelligent” search system

    Conceptualización de Tesis Científicas dentro del Contexto de una Biblioteca Digital mediante el uso de metadatos

    No full text
    International audienceEn los últimos años, el uso de las bibliotecas digitales se ha incrementado hasta llegar hoy en día a convertirse en unimportante portal de información. A pesar de esto, la información contenida en las bibliotecas digitales aún no estádescrita totalmente y su explotación es aún insuficiente. Recientemente, se ha comprobado que la descripción de lainformación usando metadatos puede ser primordial para el mejoramiento de la consulta de la información dentro deuna biblioteca digital. Nuestro enfoque está basado en la creación e introducción de nuevos metadatos capaces dedescribir, en nuestro caso, tesis doctorales. Estos metadatos corresponden a los conceptos más importantes tratados encada una de las tesis. En este artículo analizamos algunas herramientas del Procesamiento del Lenguaje Natural (PLN)capaces de extraer automáticamente los conceptos claves de un determinado grupo de documentos. Posteriormente,presentamos el análisis de la estructura lógica y semántica de las tesis con el fin de crear una base de conceptos queayudará al tesista a caracterizar su tesis durante la redacción. Finalmente, presentamos un nuevo modelo del documentousando el XML Schema, el cual contiene nuevos metadatos y sobre el cual nos basaremos para darle al usuariodurante su búsqueda la información pertinente

    Analyzing Polemics Evolution from Twitter Streams Using Author-based Social Networks

    Get PDF
    International audienceThe construction of social network graphs from online networks data has become nowadays a common track to analyze these data. Typical research questions in this domain are related to profile building, interest’s recommendation, and trending topics prediction. However, few work has been devoted to the analysis of the evolution of very short and unpredictable events, called polemics. Also, experts do not use tools coming from social network graphs analysis and classical graph theory for this analysis. In this way, this article shows that such analysis lead to a colossal amount of data collected from public social sources like Twitter. The main problem is collecting enough evidences about a non-predictable event, which requires capturing a complete history before and during the course of this event, and processing them. To cope with this problem, while waiting for an event, we captured social data without filtering it, which required more than a TB of disk space. Then, we conduct a time-related social network analysis. The first one is dedicated to the study of the evolution of the actor interactions, using time-series built from a total of 33 graph theory metrics. A Big Data pipeline allows us to validate these techniques on a complex dataset of 284 millions of tweets, analyzing 56 days of the Volkswagen scandal

    Proposition d'une nouvelle structure de document pour améliorer la recherche d'information

    No full text
    National audienceActuellement l'information contenue dans les bibliothèques numériques n'est pas totalement décrite et son exploitation est insuffisante. La description de l'information en utilisant des métadonnées nous semble une bonne solution pour envisager une recherche d'information plus pertinente. Notre proposition est fondée sur la création et l'introduction au sein du document de « tags sémantiques » capables de décrire, dans notre cas, des thèses doctorales. Nous présentons l'analyse de quatre outils de Traitement Automatique des Langues (TAL) capables d'extraire automatiquement des concepts. Ensuite, nous proposons une base de concepts fondée sur l'analyse des structures logique et sémantique des thèses. Nous présentons ensuite un nouveau modèle du document, en utilisant le XML Schéma, qui contient les nouveaux « tags sémantiques » sur lesquels nous nous appuierons lors de sessions de recherche pour fournir à l'utilisateur l'information pertinente
    corecore